您好,欢迎来到达州工业云! 平台首页 企业驾驶舱 帮助中心 企业登录 企业注册

HI,欢迎使用达州工业云平台!

账号必须大于2位

创新资源平台
服务平台首页>专利库>专利详情

面向后台多源数据的特征提取和特征选择方法

  • 申请号:CN201410491742.9 申请公布号: CN104268572B
  • 申请日: 2014-09-23 申请公布日: 2017-10-27
  • 申请(专利权)人:南京大学 专利代理机构: 南京钟山专利代理有限公司
  • 分类号:G06K9/62;G06K9/46

专利介绍

一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。1.一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:1)对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;3)对这些分组进行统计,得出直方图特征;4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征;步骤(3)中的Group Lasso方法的λ值,使用5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。